“掘金”金融AI落地,英特尔趟出一套通关攻略
有人说,金融业是最大的AI应用场景,但不管怎样,不可否认的事实是金融业已经从数字化走向AI化。
某种程度上,AI与金融业有着天然的契合性:其一,金融业本身就是以数据为基本元素的行业,它为AI的模型训练与预测推理提供了丰沃的数据土壤;其二,无论在效率和效益层面,AI能为金融企业业务的提升带来巨大的革新,为行业发展创造更大空间。
以银行为例,依托其庞大的业务数据,可以以智能的方式驱动数据分析与预测方法创新,进而获得新洞察,拥抱更为灵敏、高效的商业模式,并规避诸如贷款逾期等挑战,从而在未来竞争中抢得先机。
不过,大部分金融企业的传统技术架构显然无法匹配新潮的AI技术应用,同时目前市场上基于不同基础设施的技术方案也给企业做选择时带来了不便。不过,需要指出的是,基于现有的英特尔CPU基础设施的金融企业无需担心,只要导入相应优化的AI框架和各种软件工具,也可以无缝落地金融关键场景的AI应用。
迄今,英特尔已在助力金融行业AI落地的过程中,逐渐形成了一套完整的通关攻略。那么,它在这条道路的具体应用案例是如何做的?效果如何?这就要从以下金融行业的四大关键应用说起。
四大关键应用案例,助力金融领域AI落地
金融反欺诈
伴随金融业务的高速扩张,其风险指数也在不断上升。尤其在银行卡、信用卡等领域,欺诈损失率正随着欺诈损失金额的增长而逐年上升。
传统上,金融企业与机构往往采用基于规则的方式来构建其风控反欺诈模型,这种模型设计往往存在以下问题:
学习用户行为的算法缺乏足够的应用实践; 传统深度学习方法对数据量的要求大,但金融企业无法针对算法给出每个用户行为模式的历史交易数据; 数据非平衡性(Imbalance ratio)状况严重,即绝大多数训练数据都源自正常交易行为,正常 / 非正常数据比例大概是10万~100万: 1。
而随着业务场景的增多,交易规则复杂度也不断提升,这种设计使风控系统的资源消耗和监控时延持续增加。为此,金融机构开始尝试利用AI能力建设依托于机器学习、深度学习等多种方法,构建更为高效的金融反欺诈模型。
以中国银联反欺诈案例为例,其基于GBDT—>GRU—>RF“三明治”结构的多层模型,以及基于英特尔®架构的多方位优化来构建欺诈侦测方案。
首先,银联基于Analytics Zoo以及Spark* pipeline对数据进行流程化建模。而后,银联基于 “GBDT—>GRU—>RF” 三层架构模型,在上百个节点组成的训练集群上开展其反欺诈侦测模型的构建,该方案已在伪卡/套现欺诈侦测等场景中进行了实测,全新的多层反欺诈模型无论是在召回率,还是在准确率方面都取得了良好效果。
信贷逾期风险
来自中国银行保险监督管理委员会银的数据显示,截止2018年四季度末,中国商业银行不良贷款余额2.03万亿元人民币,不良贷款率1.83% 。因此,对信贷业务实施高效的贷前贷后风险管控,就成为银行构建风控系统的重要内容,而基于人工的风险预测方式显然不能满足这一需求。
这时就需要AI构建更有效的信贷逾期风险预测系统。而要构建完整的信贷逾期风险预测AI架构,实现高准确率、低延时以及可解释的贷款逾期预测方案,就需要针对业务数据和环境数据进行分析和预测。
在英特尔与某大型商业银行的合作探索中,双方合作构建了基于LSTM和传统机器学习的混合模型,来应对用户在准确性和可解释性两方面的需求。同时,也针对环境数据的NLP模型的构建进行了探索。
数据显示,与人工预测方案相比,LSTM方法的准确性提升一倍,而混合模型方案的预测准确率能够提升2倍以上,同时预测时延则缩短到了2天(预测效率提升10倍以上)。另外,在在线预测方案(可放贷风险预测)中,每笔预测时间均小于1秒,显著提升了客户满意度。 最终的实际部署验证表明,混合模型的方案可以有效提升预测的准确率,并大幅降低预测时延。
其中,英特尔不仅为这一新型的混合预测提供了高性能处理器产品,还提供了面向英特尔®架构优化的TensorFlow和英特尔®Python分发包等多样化的软件优化能力。
精准营销策略
金融行业较高的信息化水平和数据优势,推动业内企业加速进行各类推荐系统的构建,以 “千人千面”、“全用户画像”等方式,推动精准营销和个性化营销等重要应用的实施。利用海量结构化/非结构化数据,金融企业正构建一系列营销决策模型,对终端用户的行为喜好、使用体验以及购买意图等做出深入分析,进而推测市场前景,为相关金融产品或商业交易提供个性化建议,为金融企业营销创新提供新鲜动力。
作为支付解决方案提供商,万事达卡(MasterCard*)拥有26亿张信用卡,年交易量达 560 亿笔,并正通过将AI集成到其平台来更好地为客户服务,但在这一过程中也遇到了一些挑战:
部署时间长,大量的深度学习模块均需要在万事达卡既有系统上重建; 与万事达卡其他企业信息化模块兼容性差,例如无法利用现有的ETL、数据仓库和其他分析相关的数据技术与工具集; 数据需要在不同模块之间频繁复制,I/O性能成为瓶颈。
为应对这些挑战,万事达卡引入了英特尔Analytics Zoo “大数据分析+AI” 平台,构建基于深度学习的推荐算法。基于最新的研究和行业实践,方案选择了神经协同过滤NCF和宽深WAD模型作为推荐的两个候选模型,来自Analytics Zoo的Keras风格API也被用于基于Python和Scala构建深度学习模型。
在模型构建完成后,万事达卡利用Analytic Zoo的服务API,已将深度学习和模型服务流程嵌入到基于Apache NiFi*构建的企业数据流水线中。
从验证结果来看,基于Analytics Zoo构建的深度学习模型比ALS模型(交替最小二乘法(Alternating Least Squares,ALS))有显著的改进。
而在中国人寿上海数据中心实现寿险业务再发现的案例中,通过英特尔开源的 “大数据分析 +AI”平台Analytics Zoo,利用神经协同过滤模型、宽深等深度学习模型,构建了高效的业务推荐系统。
影像分析
人脸检测识别、图像分割等一系列基于影像分析的AI应用正在保险行业中越来越广泛。将AI影像分析应用嵌入到保险业务经营、风险管理、智能客服以及内部控制的全流程,能够有效捕捉风险、优化业务流程,实现保险行业的AI赋能。
针对该领域的AI应用需求,英特尔在人脸检测、比对、识别、活检等各个模块上提供了相应算法和模型,让用户无需从零开始,即可立即构建诸如人脸检测识别等AI应用。
基于智能应用实现的OCT病灶分割结果
在中国平安健康险评估的医学影像应用案例中,英特尔利用2D图像分类、检测及定位上有着非常优异特性的ResNET和前沿的3D图像分割模型V-Net分割网络,以及面向英特尔®架构优化的Caffe等深度学习框架,对2D/3D 医学影像进行AI推理。 通过实验室以及临床的反复训练和推理,平安智能医学影像分析已在多个应用场景中获得。
此外,英特尔®至强®可扩展处理器与针对英特尔®架构优化的深度学习框架也引入到这些应用中,这不仅能有效提升智能应用的推理效率,而且能够以更高的性价比增强应用的落地能力和可部署性,加速AI在保险行业的应用。
番外篇:联邦学习落地
如果说上述英特尔助力金融企业AI应用的四大应用场景更多侧重于对不同模型的灵活兼容或对性能或效率的优化提升,那么它与平安科技在联邦学习上的协作,则更具开创意义。英特尔使得联邦学习能够在真正保障多源数据安全性的同时开展协同训练。
多源数据的交互、传输和聚合,也带来了更为复杂的数据安全问题。通过硬件增强型安全技术的支持,在特定硬件中建立一个可信执行环境(Trusted ExecutionEnvironment,TEE),有效地防止外界触达和攻击敏感的数据和应用,是应对这一问题的更为可行的手段。
通过与英特尔开展深入技术合作,联邦学习团队成功地将 TEE 方案的重要支柱——英特尔®软件防护扩展( Software Guard Extensions,简称 SGX)技术引入其联邦学习方案,率先在多源数据协同实施 AI 训练之路上开展了积极探索,并落地在保险、医疗、智能语音以及车联网等多个领域。
赋能金融企业部署AI技术的底层支撑
AI技术落地离不开底层技术支持,在帮助金融企业进行AI落地时,英特尔以“全栈”AI能力进行赋能,以下介绍主要的硬件、软件和框架。
作为至强®平台的创新之作,第二代英特尔®至强®可扩展处理器基于突破的设计,从平台层面融合计算、内存、存储、网络等功能。 具体来说,它具有更高的每核性能,基于VNNI的英特尔®深度学习加速(英特尔®DL Boost)技术,更大的内存带宽/容量,英特尔®Infrastructure Management技术以及面向数据中心的英特尔®Security Libraries (英特尔®SecL-DC)等功能特性。
英特尔®傲腾™数据中心级持久内存随其他英特尔®至强®可扩展处理器平台产品一并面市,并针对第二代英特尔®至强®可扩展处理器做了优化,它在英特尔内部看做是一款“革命性”产品。
英特尔® 傲腾™固态盘则重点采用3D XPoint TM存储介质,并结合了一系列的内存控制器、接口硬件和软件技术,可帮助消除数据中心存储瓶颈,并允许使用更大型、更经济实惠的数据集,进而加快应用程序速度、降低延迟敏感型工作负载的事务处理成本,并改善数据中心的 TCO。英特尔®傲腾™固态盘无疑能够为数据密集型的 AI 模型训练和推理带来更高的效率。
软件和框架:分析与AI平台Analytics Zoo+面向英特尔®架构优化的Caffe、TensorFlow、Python + OpenVINO™工具套件
面向深度神经网络的英特尔®数学核心函数库(Intel®Math Kernel Library, 英特尔 ® MKL-DNN),是一款面向深度学习应用的开源性能增强库(源代码地址: https://github.com/intel/mkl-dnn ),也是英特尔为了帮助开发人员充分利用英特尔®架构,推进深度学习的研究和应用而创建的基础库。
该函数库目前已成为众多深度学习框架在CPU上运行时的基本配置。开发者可在深度学习框架的安装和应用中,直接获得英特尔®MKL-DNN 带来的性能提升。
Analytics Zoo是一个统一的大数据分析与人工智能开源平台,是为方便用户开发基于大数据、端到端的深度学习应用而推出。 它可帮助用户将Spark、 TensorFlow、Pytorch、Keras和BigDL程序,以及日后可能需要支持的其它框架等,无缝集成到一个管道之中 ; 将这些模型透明地扩展到成百上千节点规模的大数据集群,进行分布式训练或推理,从而进一步简化了人工智能解决方案开发,且无需额外的专用基础设施。
面向英特尔®架构优化的Caffe则集成了最新版的英特尔®MKL,专门面向当时至强 ® 处理器产品已经集成的英特尔® AVX 2和英特尔®AVX-512 做了优化。此外,它还支持完备的Post-training量化方案,并在大量CNN模型中得到实践。面向英特尔®架构优化的TensorFlow,能够确保深度学习类工作负载在各种情况下都可利用英特尔 ® MKL-DNN 基本运算单元高效运行。 面向英特尔®架构优化的Python分发包,提供了编写Python 原生扩展所需的一切 , 包括 C 和 Fortran 编译器、数学库和分析器,并且集成了多个高性能数据分析和数学库。经过基准测试,对比英特尔®Python 分发包与其它开放源码Python中Scikit-learn工具包的效率,前者的指标有显著提升。
OpenVINO™工具套件则是英特尔推出的一款加速深度学习推理及部署的软件工具套件,用以加快到智能交通、智能医疗等领域的高性能计算机视觉处理和应用。该工具套件目前提供预先转换的Caffe、TensorFlow、 Mxnet模型的MO文件,还具备超过20个预先训练的模型。软件开发人员和数据科学家等可以利用这些工具,快速实现个性化的深度学习应用,且可以使用OpenCV、 OpenVX的基础库,去创建特定的算法,进行定制化和创新型应用的开发。
结语
可以看到,英特尔利用自身软硬件产品的优势深入金融行业从反欺诈、信贷风险到精准营销等各场景应用,结合其实践经验,已经能给客户提供一套完善的AI+金融技术解决方案。
随着金融行业不断利用AI技术来驱动业务的转型升级,加快智能化升级进程,像英特尔这样的企业将加速行业AI技术落地,升级IT基础设施,助力企业从大量数据中的洞察能力,最终成为金融行业的坚实后盾。